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摘要 : 


【 目的 】 识别 并 获取 细 粒 度 的 用 户 偏好 信息 , 优化 


图 书 个 性 化 推荐 的 效果 。[ 方法 】 使 用 情感 分 析 方 法 对 


用 户 图 书评 论 进行 属性 层 文本 挖 气 , 通过 用 户 本 身 的 图 书评 论 获 取 用 户 对 图 书 属性 的 偏好 ; 基于 每 本 图 书 的 所 
有 评论 的 情感 计算 获得 其 属性 评分 ; 将 用 户 偏好 矩阵 、 图 书 属性 得 分 矩阵 进行 匹配 ,从 而 实现 用 户 对 图 书 属性 情 
感 偏好 的 个 性 化 推荐 。[ 结果 ] 利用 亚马逊 图 书评 论 数 据 作为 数据 来 源 分 别 对 传统 的 协同 过 渡 方 法 与 本 文 提出 的 


推荐 方法 进行 实验 对 比 。 结 果 表 明 , 本 文 提 出 的 方法 在 准确 性 、 召 回 率 、 覆 盖 率 上 分 别提 高 了 0.030 .0.097 .0.2812。 


【 局限 】 未 考虑 时 间 因 素 对 用 户 偏 好 的 影响 , 并且 属性 类 型 的 全 面 程 度 受 亚马逊 图 书评 论 数量 和 质量 的 限制 。 


【 结论 】 本 文 计算 用 户 对 图 书 属性 的 情感 得 分 , 得 到 细 粒 度 的 用 户 偏好 信息 ,并 通过 与 图 书 属性 的 得 分 进行 匹配 


提升 了 图 书 个 性 化 推荐 的 效果 。 


关键 词 : 图 书 个 性 化 推荐 ”情感 匹配 商品 属性 ”用 户 偏 好 
分 类 号 : G35 
1 引言 是 仍然 有 一 些 不 足 : 评分 数据 虽然 能 表示 用 户 对 商品 


近年 来 , 推荐 系统 被 证 明 是 一 种 解决 信息 过 载 和 
长 尾 物品 问题 的 有 效 工 具 , 已 经 与 日 常生 活 息息相关 ， 
如 在 阅读 新 闻 资 讯 、 网 上 购物 、 了 聆听 音乐 、 观 看 视频 
时 ,都 能 看 到 各 种 各 样 的 推荐 。 对 于 用 户 , 推荐 系统 可 
以 帮助 快速 找到 感 兴趣 的 信息 或 物品 ， 从 而 减轻 用 户 
的 认 知 负担 , 改善 用 户 体验 , 增加 用 户 粘性 ,图书 个 性 
化 推荐 最 早 是 亚马逊 为 了 提升 长 尾 图 书 的 用 户 抵达 率 
而 提出 的 , 据 VentureBeat 统计 , 图 书 个 性 化 推荐 为 亚 
马 逊 贡献 了 35% 的 销售 额 门 。 
图 书 个 性 化 推荐 系统 以 协同 过 滤 为 主 , 通过 对 用 
户 -项 目 评分 矩阵 中 评分 数据 的 统计 ， 计 算 用 户 或 项 
目的 相似 性 , 将 相似 度 高 的 近邻 用 户 喜 欢 的 图 书 推荐 
给 目标 用 户 。 这 种 方法 得 到 了 广泛 的 应 用 ， 但 


的 态度 , 但 不 能 解释 用 户 评分 产生 差异 的 详细 原因 ; 
这 种 方法 假设 给 出 相似 评分 的 用 户 具有 类 似 的 喜好 ， 
但 近邻 用 户 并 不 能 完全 客观 、 真 实地 反映 用 户 自身 的 偏 
好 。 同时, 内 容 特征 也 会 影响 推荐 效果 , 这 类 推荐 系统 站 
从 标签 、 评 论 或 博客 、 微 博 等 形式 的 用 户 生成 内 容 中 
收集 用 户 、 商 品 以 及 用 户 对 商品 的 描述 信息 ,并 据 此 
将 用 户 可 能 喜欢 的 商品 推荐 给 用 户 。 这 种 方法 融合 了 
语义 信息 ,过 滤 了 用 户 不 感 兴趣 的 图 书 资源 ， 缺 点 是 
难以 区 分 图 书 内 容 的 质量 。 而 且 ， 筛选 关键 词 和 标签 
的 做 法 无 法 识别 用 户 的 情感 态度 ,也 无 法 挖 据 出 用 户 
对 图 书 细 市 方面 的 情感 态度 。 而 情感 对 人 类 认 知 和 购 
买 决策 行为 具有 重要 的 影响 和 作用 。Hu 等 中 研究 了 图 
书 销量 与 用 户 评论 数量 及 评论 情感 之 间 的 关系 ,发 现 
在 线 评论 数量 及 用 户 反馈 中 的 情感 体验 均 能 影响 产品 


通讯 作者 : 王 伟 军 ，ORCID: 0000-0003-4948-0634, E-mail: wangwj@mail.ccnu.edu.cn。 
* 本 文系 国家 自然 科学 基金 项 目 “ 基 于 用 户 偏 好 感知 的 Saag 服务 选择 优化 研究 ”( 项 目 编号 : 71271099) 和 国家 自然 科学 基金 项 目 “ 基 


于 屏幕 视觉 热 区 的 网 络 用 户 偏好 提取 及 交互 式 个 性 化 推荐 研究 (项 目 编号 : 71571084) 的 研究 成 果 之 一 。 
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销量 。Sohail 等 外 和 Diao 等 外 研究 发 现 属性 层面 的 情 
感 分 析 方 法 能 够 提高 推荐 的 准确 性 。 因 此 , 为 了 更 深 
人 地 挖 据 用 户 对 图 书 属性 的 偏好 ,蕴含 丰富 用 户 意见 
和 观点 的 评论 内 容 无 疑 最 具 分 析 价 值 。 用 户 评 论 中 不 
仅 包 括 用 户 提 及 的 图 书 属性 , 还 包括 对 属性 的 情感 态 
度 (关注 和 挑剔 程度 )， 即 通过 对 用 户 评论 内 容 的 分 析 
可 以 获取 用 户 对 图 书 属性 的 偏好 ， 并 以 此 为 推荐 依据 
向 用 户 推荐 更 加 符合 其 偏好 的 图 书 。 刘 凯 等 指出 准 
确 地 获取 用 户 偏好 信息 是 个 性 化 推荐 的 基础 ， 并 提出 
基于 商品 自 组 织 层次 聚 类 的 用 户 偏好 表示 模型 。 而 通 
过 对 用 户 评论 内 容 进 行 属 性 层 情感 分 析 ,， 可 以 对 用 户 


从 用 户 的 交互 记录 中 提取 相似 偏好 , 采用 关联 规则 和 
聚 类 技术 结合 的 方法 从 简单 的 数据 中 挖掘 用 户 相 关 
性 ,获得 了 较 好 的 推荐 结 

(2) 图 书 个 性 化 推荐 依据 的 选择 多 以 图 书 主 题 、 
用 户 评分 评论 、 人 口 统计 学 信息 、 社 交 网 络 行为 、 时 
间 信 息 为 主 。 王 伟 军 等 5 针对 协同 过 滤 可 扩展 性 和 数 
据 稀 玻 性 问题 , 加 入 了 时 间 约 束 因素 ,以 克服 无 法 找 
到 相似 用 户 数据 的 困难 。Qiu 等 中 则 在 评分 数据 基础 
上 融和 人 评论 文本 , 采用 评论 文本 的 主题 分 布 表示 商品 
特征 ,挖掘 评论 文本 在 推荐 系统 中 的 价值 。 社 交 网 络 


裔 好 信息 进行 更 为 细 粒 度 的 解读 ， 获 取 用 户 对 商品 属 
性 的 偏好 。 因 此 , 在 团队 的 前 期 研究 基础 上 , 为 了 改善 
推荐 的 效果 ,帮助 企业 更 为 便捷 、 快 速 地 获取 用 户 意 见 


信息 也 是 部 分 学 者 进行 用 户 偏好 建 模 考虑 的 因素 , 社 
交 网 络 信息 细 分 为 推荐 信任 程度 、 社 交 关 系 等 [ ,学 者 
将 这 些 因 素 融 合 到 传统 的 推荐 方法 中 ,完善 推荐 系统 
依据 的 参数 ,并 且 提 高 了 商品 的 推荐 准确 性 。 本 团队 


并 提供 优质 的 个 性 化 推荐 服务 , 本文 入选 出 影响 用 户 
裔 好 的 图 书 属 性 ,采用 情感 分 析 技 术 提取 用 户 图 书评 
论 中 蕴含 的 属性 层面 的 观点 作为 推荐 依据 , 并 计算 出 
用 户 偏 好 矩阵 、 图 书 属性 得 分 矩阵 , 依据 用 户 对 图 书 属 
性 的 偏好 和 图 书 历史 评论 的 情感 分 析 结 有 果 之 间 的 匹配 
程度 , 将 最 符合 用 户 偏好 的 图 书 推荐 给 用 户 。 


2 相关 研究 


关于 图 书 个 性 化 推荐 的 研究 现状 梳理 主要 从 推荐 
方法 和 推荐 依据 的 选择 两 个 方面 展开 。 

(1) 图 书 个 性 化 推荐 方法 主要 有 内 容 推 荐 、 协 同 
过 滤 推 荐 和 混合 推荐 方法 等 。 最 初 的 图 书 个 性 化 推荐 
根据 用 户 的 搜索 、 浏 览 、 购买、 注册 等 行为 涉及 的 主 
题 信息 推测 用 户 感 兴趣 的 书籍 ， 推 荐 给 用 户 具 有 相似 
主题 或 者 标签 的 图 书 。 但 是 , 由 于 用 户 的 能 力 和 专业 
水 平 的 差异 也 会 造成 用 户 产生 这 些 行为 , 因此 使 用 这 
种 方法 挖掘 用 户 偏好 会 产生 偏差 中。 因此 要 精准 匹配 
书 资源 与 用 户 偏好 ,基于 内 容 的 推荐 直接 利用 所 购 
书 主题 等 信息 做 出 推荐 还 有 竺 改进。 主流 的 协同 过 
滤 方 法 引入 相似 用 户 或 者 相似 群体 外 的 评分 也 就 是 观 
点 信息 ,借助 用 户 历史 行为 (包括 浏览 购买 评价 等 ) 的 
共同 性 等 指标 , 将 近邻 用 户 所 购 的 图 书 列 入 推荐 列 
表 。 这 种 方法 通过 大 量 评分 数据 计算 用 户 或 商品 之 间 
的 相似 性 , 采用 聚 类 技术 等 方法 改进 推荐 效果 中"。 此 
外 ,为 了 克服 单一 推荐 方式 的 数据 不 足 等 缺点 ,混合 
方法 也 应 用 到 图 书 个 性 化 推荐 研究 中 .Najafabadi 等 


一 、 


网 册 


数据 分 析 与 知识 发现 


在 前 期 研究 中 提出 , 个 性 化 推荐 系统 主要 面向 系统 使 
用 的 主体 一 一 用 户 的 实际 行为 与 真实 主观 感受 ， 以 
“人 ”的 偏好 为 本 Wl。 现 有 图 书 个 性 化 推荐 的 研究 主要 
依据 近邻 用 户 的 评分 信息 预测 用 户 可 能 感 兴趣 的 商 
品 ,未 能 挖掘 出 用 户 的 真实 主观 感受 。 不 同 于 评分 购 
买 记录 信息 , 用 户 评论 是 用 户 自 身 对 商品 属性 的 主观 
表达 。 细 粒度 情感 分 析 方 法 从 短语 和 词 级 别 识别 情感 
词 及 其 情感 倾向 , 对 提取 本 文 需要 的 用 户 对 图 书 属性 
的 情感 偏好 信息 最 为 合适 。 

此 外 , 笔者 团队 在 先前 的 研究 中 通过 自 组 织 聚 类 
的 方法 构建 即时 偏好 、 短 期 偏好 和 长 期 偏好 的 复合 模 
型 I， 并 通过 实验 验证 了 用 户 偏好 模型 可 以 提高 推荐 
效果 四 。 因 此 , 在 前 期 研究 的 基础 上 ,本 文 结合 属性 层面 
的 情感 分 析 技术 获取 更 细 粒 度 的 用 户 偏好 信息 ， 提 出 
种 基于 用 户 偏好 和 商品 属性 情感 得 分 的 情感 匹配 推荐 方 
法 : 获取 图 书评 论 数据 , 并 使 用 自然 语言 处 理工 具 对 数 
据 进行 分 析 ,， 获取 影响 用 户 对 图 书 偏好 程度 的 属性 特征 ; 
采用 情感 分 析 技术 进行 观点 挖掘 ， 分 别 从 用 户 自 身 评论 
和 图 书 的 历史 评论 中 计算 得 到 用 户 偏 好 和 矩阵 和 图 书 属 
性 得 分 矩阵 ; 计算 用 户 与 图 书 在 属性 层面 的 情感 匹配 
程度 作为 推荐 的 依据 ,并 采用 亚马逊 图 书 商城 的 实际 
数据 验证 本 文 提 出 的 推荐 方法 的 有 效 性 。 


3 商品 属性 与 用 户 偏好 情感 匹配 分 析 


在 对 用 户 和 图 书 进行 属性 层 情感 匹配 分 析 前 ， 需 
要 对 评论 数据 进行 清洗 与 处 理 ， 筛 选 出 影响 用 户 对 图 


书 偏好 程度 的 属性 。 常 见 的 提取 商品 属性 的 方法 有 人 
工 标注 和 自然 语言 处 理 两 种 方法 。 由 于 人 工 标注 不 适 
合 大 规模 的 实验 文本 ， 因 此, 本 文采 用 自然 语言 处 理 
工具 从 评论 文本 中 抽取 与 图 书 相关 的 属性 特征 。 为 了 


图 书 的 平均 评论 数量 约 为 34 条 , 每 个 用 户 的 平均 评论 
数量 约 为 10 条 。 

商品 属性 提取 方法 主要 有 人 工 标注 和 自然 语言 处 
理工 具 两 种 。 李 实 等 中 人 工 标注 了 数码 产品 和 图 书 等 


获取 用 户 偏 好 矩阵、 图 书 属性 得 分 矩阵 , 选用 基于 情 
感 词典 的 情感 分 析 方 法 来 计算 与 特征 词 距 离 最 近 的 观 
点 词语 的 情感 分 数 , 通过 对 用 户 自身 评论 和 商品 历史 
评论 的 情感 分 析 , 得 到 用 户 偏 好 和 矩阵 和 图 书 属性 得 分 
矩阵， 直接 利用 情感 匹配 方法 计算 两 个 矩阵 的 相似 度 ， 
并 以 此 为 依据 进行 推荐 。 
3.1 图 书评 论处 理 

为 了 提取 图 书 属 性 并 进行 情感 分 析 , 本 文选 用 亚 
马 撑 图 书 商城 的 真实 评论 作为 实验 数据 。 使 用 斯 坦 福 
大 学 提供 的 “Stanford Large Network Dataset 
Collection: Amazon Reviews” 数 据 集 ， 由 于 数据 集 规模 
较 大 , 选取 评论 较 多 的 2013 年 7 月 -2014 年 7 月 之 间 ， 
共 36 770 条 图 书评 论 数据 作为 实验 数据 5" 。 图 书评 论 
数据 集 的 信息 包括 产品 和 用 户 信息 、 评 分 信息 、 评 论 
文本 、 认 为 评论 信息 有 用 等 内 容 。 亚 马 逊 图 书 主要 使 
用 协同 过 滤 、 热 门 商品 和 热门 新 品 三 种 推荐 方法 。 由 
于 亚马逊 图 书 商城 要 求购 买 之 后 才能 够 发 表 评论 ， 
此 获取 的 评论 信息 具有 较 高 可 靠 性 。 经 过 对 无 效 数 据 
和 重复 数据 的 清洗 和 整理 ,共计 得 到 有 效 评论 文本 
220 459 条 , 图 书 数量 6 506 本 , 用 户 21 096 名 。 每 本 
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商品 的 评论 文本 , 根据 最 小 最 大 覆盖 原则 建立 能 覆盖 
评论 数据 集 的 最 小 属性 集合 , 但 是 这 种 方法 处 理 数 
据 尤 其 是 大 规模 评论 费时 费力 。He 等 (主要 采用 依 
存 句法 方式 , 采用 词性 标注 提取 商品 属性 。Sohail 等 站 
同样 使 用 依存 句法 分 析 提 取 图 书 的 属性 并 对 比 权重 ， 
总 结 为 “Occurrence”、“Helpfulness”、“Material”、 
“Availability”“Irrelevancy”“Price" 等 6 类 属性 。 这 
种 方法 可 以 从 数据 中 充分 挖掘 出 用 户 提 及 的 商品 属 
性 ， 故 本 文 使 用 英文 分 词 工具 CoreNLP”(Java 自然 语 
言 分 析 库 ) 中 的 分 词 和 词性 标注 工具 处 理 评 论文 本 。 笔 
者 发 现 , 除了 “mind”、“topic" 等 名 词 或 动 名 词 形式 外 ， 
图 书评 论 者 还 经 常 使 用 “difficult*、“useful* 等 形容 词 表 
示 难 度 、 实 用 性 等 方面 属性 。 因 此 , 本 文 将 属性 词 常 
见 词 性 (名 词 、 动 名 词 、 名 词 短语 、 形 容 词 等 ) 抽 取出 
来 ,作为 图 书 属性 词 集 的 候选 词 。 使 用 WordNet 2.1 版 
本 ”提供 的 同义词 集合 Synset 扩充 候选 词 集 , 减少 由 
于 词性 限制 造成 的 误差 ; 评论 文本 中 经 常 使 用 不 同 词 
语 描述 相同 图 书 属性 , 需要 将 同类 图 书 属性 加 以 合并 
以 便 后 续 情 感 分 析 。 公式 (1) 为 WordNet 语义 相似 度 计 
算 公 式 , 以 此 合并 图 书 领域 属性 词 。 


ie(1…S 扰 


(1) 


其 中 , |S 到 | 为 文档 中 的 意义 解释 个 数 ; 1S 友 | 为 文 
档 中 的 意义 解释 个 数 。 两 个 词语 之 间 的 距离 越 小 ， 
语义 相似 度 越 大 中。 例如 , Similarity(thesis, topic) = 
0.648, Similarity (useful, effective) = 0.65, 设置 相似 
度 国 值 为 0.6， 则 “thesis” 和 “topic” 合 并 为 一 类 特征 ， 
“useful” 和 “effective” 合 并 为 一 类 ， 相 似 的 描述 可 以 
有 “spirit”、“soul”、“belief*、‘“heart”* 等 。 这 些 词语 表 
达 形 式 不 同 , 但 是 描述 的 含义 是 基本 相同 的 。 根 据 


Dhttps://stanfordnlp.github.io/CoreNLP/. 


Dhttp://wordnet.princeton.edu/wordnet/download/old-versions/. 


| SW + SW, | 


分 词 工具 CoreNLP 从 评论 文本 提取 出 候选 词 后 ， 笔 
者 利用 语义 相似 度 计算 来 确保 属性 候选 词 分 类 的 合 
理性 。 

表 1 为 最 后 汇总 出 用 户 在 实验 评论 文本 中 所 提 及 
的 7 大 类 属性 ,分 别 为 "内 容 和 主题 思想 (mind)”、“ 结 
构 和 形式 (structure)”、“ 实 用 性 (practice)”、“ 趣 味 性 
(interesb”“ 难 度 和 专业 性 (difficulty)” “价格 (cosb”、 
“质量 (quality)”。 
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长 1 图 书 属性 词 表 


图 书 属 性 词 


mind, content, thesis, topic, thought, story, setting, plot, detail, spirit, soul, idea, belief, concept, ideal, 


1 内 容 和 主题 思想 (mind) sensation, heart, thinking, thinker, theory, event, deeds, reflections, feel, feeling, view, emotion, essence, 


mood, humanity, characters, memories, opinion 


2 ”结构 和 形式 (structure) structure, framework, layout, chapter, length, clue, thread, passages, circus 


3 实用 性 (practice) 


4 趣味 性 (interest) 


practice, purpose, use, useful, information, device, advice, technique, effective, creative, meaningful, 
impact, progress, discoveries 


hobby, interest, interested, interesting, moved, exciting, excite, excited, delight, delightful, surprised, 
delighted, pleasure, joy, joyous, Joys, enjoy, enjoyable, taste, enthusiast, pleasure 


5 难度 和 专业 性 (difficulty) depth, difficult, difficulty, classic, readability, specialty, profession, major 


6 价格 (cost) 


7 质量 (quality) 


price, cost, value 


quality, hardcover, paperback, package, paper, cover, print, printed 


3.2 ”情感 分 析 方 法 极 性 如 表 2 所 示 , 例如 等 级 2 代表 中 立 性 的 情感 ， 极 


对 于 图 书 这 类 商品 , 不 仅 属 性 词 会 有 专 有 名 词 ， ”性 为 0。 


评价 词语 也 会 由 于 领域 的 专业 性 而 产生 特定 的 词汇 。 
提取 评价 词语 的 效果 受 情感 词典 影响 较 大 。 本 文选 取 


2 ”情感 词汇 等 级 分 类 


词语 等 级 极 性 
WordNet 辞典 生成 的 情感 词典 SentiWordNet?"1 该 词 Very Negative 0 -1 
典 通过 对 WordNet 中 的 词 条 进行 情感 分 类 , 标注 出 Negative 1 -1 
属于 positive 和 negative 类 别 的 每 个 词 条 的 权重 大 小 。 Neutral 2 0 
此 外 , 情感 词典 还 包括 象征 着 情感 强度 的 程度 词 ， 例 Posilve 7 
如 “very” “so much”， 还 有 表达 着 情感 倾 癌 的 否定 词 9 4 . 


语 ,例如 “not”、 


“nothing” 等 。 因 此 , 使 用 词性 标注 工 ”3.3 ”情感 匹配 推荐 


具 将 图 书评 论 中 涉及 到 形容 词 、 带 有 否定 倾向 的 形容 基于 用 户 偏 好 与 图 书 属性 情感 匹配 的 图 书 个 性 化 
词组 加 入 到 情感 词典 中 ,扩大 了 人 情感 词典 的 规模 以 推荐 方法 的 主要 思想 是 : 如 果 用 户 对 图 书 属性 的 评分 
及 在 图 书 领域 的 专业 性 。 根 据 扩展 后 的 词典 , 将 图 书 。” 较 低 , 证 明 用 户 对 这 一 属性 较为 挑 吻 , 且 绝 对 值 越 大 , 


领域 7 类 属性 的 双 


征 Very Negative、 


| 


观点 态度 划分 为 5 类 情感 等 级 , 分 别 用 户 的 挑剔 程度 越 高 。 如 果 用 户 对 图 书 某 一 属性 的 评 
Negative 、Neutral、Positive 、Very 分 较 高 ， 表示 用 户 对 这 一 属性 有 容忍 度 , 且 绝 对 值 越 


Positive。 这 5 类 情感 词语 的 情感 等 级 和 对 应 的 情感 大 ,容忍 度 越 高 。 推 荐 流程 如 图 1 所 示 。 


数据 采集 数据 应 用 


数据 存储 
I 
| 


1 
1 
I 
户 历 史 1 用 户 兴 趣 
i 评价 | => 表示 
| 1 
1 1 1 
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I 评价 | | 
| 1 
1 1 
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图 1 情感 匹配 图 书 个 性 化 推荐 流程 


数据 分 析 与 知识 发 现 


(1) 数据 采集 和 存储 阶段 ,收集 用 户 和 图 书 的 相 
关 信 息 。 用 户 和 图 书信 息 包 括 用 户 和 图 书 的 基本 信息 
及 评论 信息 。 将 用 户 和 图 书 的 基本 信息 和 历史 评价 存 
储 到 数据 库 中 ; 而 购买 记录 存储 的 购买 信息 数据 库 则 
作为 后 续 推 荐 效果 的 评价 依据 。 

(2) 数据 分 析 阶 段 , 需要 对 采集 到 的 用 户 和 图 书 
评论 信息 进行 细 粒 度 情感 分 析 。 借 助 情感 分 析 词 典 和 
自然 语言 处 理工 具 对 评论 信息 进行 处 理 ,获取 用 户 偏 
好 和 图 书 属性 的 情感 得 分 。 

(3) 数据 应 用 阶段 , 将 用 户 偏 好 和 矩阵 和 图 书 属性 
得 分 和 矩阵 进行 匹配 计算 。 将 用 户 w 对 商品 属性 t 的 偏 
好 记 为 向 量 U, = (U1,Up,UVi3;U,4,…)，Uii 表示 用 户 
u 对 第 i 个 特征 的 偏好 程度 。 商品 p 的 属性 上 的 情感 得 
分 为 P = (PP P,P,a，…) ，Ppi 表 示 商 品 p 的 第 i 
个 特征 的 情感 得 分 。 本 文采 用 余弦 相似 度 己 衡量 用 户 
和 图 书 属性 层 的 情感 匹配 程度 , 余弦 相似 度 计算 可 以 
从 方向 上 区 分 用 户 和 图 书 之 间 的 差异 , 通过 减 去 均值 
修正 用 户 和 图 书 之 间 的 度量 标准 不 统一 的 问题 。 在 此 
采用 sim(%,D 表 示 用 户 和 商品 之 间 的 情感 匹配 值 ， 如 
公式 (2) 所 示 。 


UB 
2 
| Ud: Pi ll « 
根据 公式 (2) 的 计算 结果 , 选取 与 用 户 偏好 最 接近 
的 本 图 书 , 并 将 其 推荐 给 用 户 。 


4 实验 与 讨论 


4.1 用 户 偏好 计算 
为 了 识别 用 户 对 图 书 属性 的 偏好 ,对 用 户 自身 评 
论 数 据 中 所 有 用 户 情 感 值 进行 汇总 统计 。 由 于 本 


sim(X,Y)= cosO = 


总 第 8 期 2017 年 第 8 期 


文 分 析 的 是 不 同 用 户 各 自 的 兴趣 观点 ,因此 认为 所 有 
观点 持 有 者 的 评论 权重 是 相等 的 。 针 对 识别 出 来 的 
书 属性 词 , 采用 SentiByTerm 算法 计算 最 近 情感 词语 
的 得 分 。 本 文 根 据 第 3 节 提 出 的 情感 分 类 方法 进行 用 
户 属性 情感 倾向 值 的 求解 。 用 户 偏 好 的 表示 转化 为 情 
感 汇 总 计算 任务 , 也 就 是 计算 观点 持 有 者 某 个 属性 类 
对 应 的 情感 平均 值 , 计算 方法 如 公式 (3) 所 示 。 


n 四 


机 = 三 一 G) 


其 中 , # 为 属性 类 , nn 为 属性 类 i 在 某 用 户 历 史 评 
论 中 的 总 次 数 ，U， 为 评论 中 第 j 次 出 现 的 属性 类 1 
对 应 的 情感 倾向 值 ，U, 为 某 个 用 户 所 有 评论 中 的 属 
性 类 所 对 应 的 平均 情感 倾向 值 。 用 户 为 u, 属性 类 用 1 
表示 ,用户 偏 好 矩阵 如 图 2 所 示 。 


属性 


图 2 用 户 偏 好 算 阵 
用 户 偏好 和 矩阵 是 指 用 户 对 网 书 属性 的 偏好 程度 。 
为 了 便于 采用 上 述 情感 匹配 公式 , 将 计算 所 得 情感 得 
分 减 2, 即 可 得 到 代表 正 负极 性 的 情感 得 分 。 如果 值 大 


于 0, 那么 用 户 对 该 产品 特征 持 有 肯定 态度 ,小 于 0 则 
证 明 该 产品 得 到 的 评价 是 否定 的 , 值 为 0 则 表示 持 中 
立 态 度 。 经 过 计算 得 到 结果 如 表 3 所 示 。 


表 3 用 户 偏好 表示 (部 分 用 户 偏好 ) 

引 遍 石 (内 容 ) b (结构 ) a (实用 性 ) ta (趣味 性 ) ts (专业 性 ) te (价格 ) (质量 ) 

Ul 1.56 0.00 0.83 2.63 1.18 0.00 1.00 

U2 1.00 0.53 0.76 0.00 1.42 1.56 一 1.83 

U3 1.00 1.89 —2.00 0.00 0.00 1.56 0.34 

U4 0.00 2.00 一 1.82 0.34 1.88 1.$7 —2.00 

Us 0.80 —2.00 34 0.59 0.35 2.00 =2.00 
4.2 ”图 书 属性 情感 分 析 

为 了 评估 推荐 效果 ,对 图 书 属性 情感 得 分 加 以 计 加 0 
算 。 商 品 属性 得 分 计算 如 公式 (4) 所 示 。 ee 由 


Lt, 
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其 中 ,为 属性 类 ，n, 为 属性 类 出 现 的 总 次 数 ,PP 
为 商品 历史 评论 中 第 j 出 现 的 属性 类 ;对 应 的 情感 贷 
向 值 ，P 为 某 个 商品 所 有 评论 中 的 属性 类 所 对 应 的 
平均 情感 倾向 值 。 商品 用 P 表示, 属性 类 用 1 表示 , 图 
书 属性 得 分 矩阵 如 图 3 所 示 。 
图 书 属性 矩阵 就 是 计算 所 有 参与 评论 用 户 对 每 个 
图 书 属性 的 情感 倾向 。 将 产品 的 情感 得 分 减 2， 即 可 得 


到 能 反映 图 书 属性 情感 得 分 的 和 矩阵。 结果 如 表 4 所 示 。 


图 3 图 书 属性 得 分 矩阵 


表 4 图 书 属性 情感 分 析 (部 分 图 书 得 分 ) 


图 书 1 (内 容 ) bb (结构 ) 6 (实用 性 ) t4 (趣味 性 ) ts (专业 性 ) te (价格 ) 力 (质量 ) 

pi -0.56 0 -0.29 1 -1 0 1 

pa 0.14 0 -0.57 0.44 0.33 1 0 

ps -0.34 0 -0.67 0 0 1 -0.4 

pa —0.21 —0.08 —0.68 一 2 一 1 0 —0.67 
ps 0.2 0 -0.33 0 0.5 0 0 

pe 0 0 -0.17 0 0 0 -0.67 
p7 -0.49 0 0.95 0 -1 1 0 

ps -0.4 0 -1.33 1 -1 0 = 

po -0.13 0 -0.71 0.07 1 0 0 


4.3 推荐 结果 分 析 与 讨论 

根据 用 户 自 身 评 论 和 商品 历史 评论 分 别 计 算 用 户 
偏好 和 矩阵 和 图 书 属性 得 分 和 矩阵。 用 户 仿 好 矩阵 大 小 为 
mxt, m 代表 用 户 数量 , ;代表 商品 属性 类 别 ，U,， 表示 
用 户 x 对 属性 去 的 平均 情感 倾向 值 ， 如 果 用 户 没有 对 
该 类 属性 进行 评价 , 则 分 数 取 0。 图 书 属 性 得 分 和 矩阵 大 
小 为 nx n 代表 商品 数量 , 4 代 表 商 品 属性 类 别 ，P 代 
表 商 品 在 属性 类 t; 上 的 情感 评分 。 
利用 用 户 偏 好 和 矩阵 和 图 书 属性 情感 得 分 矩阵 进行 
相似 度 计 算 , 计算 出 与 待 推荐 用 户 相 似 度 Top10 的 商 
品 ， 得 到 推荐 结果 。 实 验 效果 的 测评 采用 准确 率 、 召 
回 率 与 覆盖 率 三 个 指标 睛 。 本 实验 将 数据 集 划 分 为 训 
练 集 和 测试 集 两 个 部 分 ,训练 集 用 来 产生 推荐 结果 ， 


天 


表 5 Item-base 、User-base 与 基于 用 户 偏 好 与 商品 
属性 的 情感 分 析 推 荐 算法 结果 对 比 


推荐 算法 正确 推荐 数量 推荐 数量 准确 率 召回 率 覆盖 率 
Item-base 244 1630 0.1497 0.1124 0.3418 
User-base 249 1 630 0.1528 0.1285 0.3051 
本 文 方法 298 1630 0.1828 0.1382 0.5863 


图 书 个 性 化 推荐 采用 基于 用 户 偏好 与 商品 属性 的 
情感 分 析 的 推荐 算法 相对 于 传统 的 Item-base 和 
User-base 将 推荐 的 准确 率 提高 了 0.030, 召回 率 提高 
了 0.097, 覆盖 提高 了 0.2812。 在 基于 用 户 偏好 与 商品 
属性 的 推荐 算法 中 , 不 需要 寻找 相似 用 户 或 类 似 商品 ， 
而 是 将 用 户 的 情感 倾向 和 商品 的 情感 得 分 直接 匹配 ， 
筛选 出 满足 用 户 偏好 的 商品 。 由 于 本 文 在 基于 项 目的 


测试 集 对 结果 进行 比较 与 评估 。 在 根据 用 户 偏好 与 商 
品 属性 的 情感 匹配 进行 推荐 实验 后 ,另外 采用 传统 的 
基于 项 目的 推荐 (Item-base) 和 基于 用 户 的 推荐 (User- 
base) 进 行 比较 。 为 了 避免 推荐 系统 中 数据 稀 琉 问题 ， 
影响 实验 比较 , 本 文选 用 评论 总 数 大 于 30 的 用 户 数据 ， 
共有 163 位 用 户 和 4 287 本 图 书 , 26 160 条 评论 数据 进行 
实验 。 表 5 为 三 种 方法 推荐 效果 的 比较 。 
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协同 过 滤 方 法 基础 上 , 通过 挖掘 用 户 对 图 书 属性 的 偏 
好 , 使 得 推荐 结果 更 加 符合 用 户 需求 。 对 于 评论 较 少 
的 用 户 而 言 , 采用 的 是 亚马逊 的 “认为 此 评论 有 用 ” 原 
则 , 将 用 户 赞同 过 的 评论 作为 用 户 的 观点 和 偏好 , 减 
少 冷 启动 问题 带 来 的 偏差 。 从 实验 结果 来 看 ， 本 文 提 
出 的 基于 用 户 偏好 和 商品 属性 的 推荐 算法 提高 了 图 书 
个 性 化 推荐 效果 。 
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传统 的 图 书 个 性 化 推荐 主要 依据 近邻 用 户 的 评分 
信息 做 出 推荐 , 无 法 完全 客观 、 真 实地 表示 用 户 自身 
的 偏好 以 及 详细 的 原因 。 虽 然 有 学 者 结合 图 书 主题 、 
作者 、 体 裁 等 属性 研究 用 户 偏好 , 但 是 没有 深入 挖掘 
用 户 的 意见 和 情感 态度 。 本 文采 用 情感 分 析 技 术 从 商 
品 属性 层面 获取 用 户 偏好 和 图 书 在 不 同属 性 方面 的 情 
感 得 分 , 对 用 户 和 图 书 进行 属性 层 情感 匹配 并 根据 匹 
配 结果 做 出 推荐 。 

本 文 对 用 户 自身 评论 和 商品 历史 评论 进行 属性 层 
面 的 情感 匹配 分 析 , 为 图 书 个 性 化 推荐 提供 了 一 种 新 
的 方法 。 在 梳理 现 有 图 书 个 性 化 推荐 方法 和 推荐 依据 
参数 的 基础 上 , 本 文 总 结 了 现 有 图 书 个 性 化 推荐 研究 
存在 的 不 足 之 处 ; 获取 用 户 对 图 书 属性 特征 的 偏好 ， 
对 用 户 偏好 进行 更 细 粒 度 的 刻画 ; 为 降低 依据 近邻 用 
户 偏好 产生 推荐 的 误差 ,使 用 情感 分 析 方法 构建 用 户 
偏好 矩阵 和 图 书 属性 得 分 矩阵 , 提出 了 依据 用 户 偏好 和 
商品 属性 情感 得 分 直接 匹配 的 推荐 方法 , 提升 了 推荐 效 
果 , 并 为 网 络 书店 图 书 个 性 化 推荐 提供 了 新 的 思路 。 

本 研究 也 存在 一 些 不 足 : 本 文 将 图 书 属性 汇总 归 
纳 为 7 类 , 但 商品 属性 尚 不 够 完善 , 需要 更 加 完善 地 
挖 据 影响 用 户 偏好 的 图 书 属性 ; 用 户 偏 好 会 随 着 时 间 
的 推移 而 发 生变 化 , 没有 考虑 时 间 因 素 对 用 户 偏好 的 
影响 ; 受 评论 数据 量 和 质 的 影响 较 大 , 建议 与 协同 过 
滤 方 法 结合 使 用 效果 更 佳 ; 在 计算 图 书 属性 得 分 矩阵 
时 ,没有 考虑 用 户 的 权重 。 而 初级 用 户 和 有 经 验 用 户 
发 表 的 意见 权威 性 有 所 不 同 , 用 户 的 意见 权重 因素 将 
是 下 一 步 探索 的 内 容 。 
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Personalized Book Recommendation Based on User Preferences and 
Commodity Features 


Hou Yinxiu LiWeiging Wang Weijun Zhang Tingting 
(School of Information Management, Central China Normal University, Wuhan 430079, China) 
(Key Laboratory of Adolescent Cyber Psychology and Behavior, Ministry of Education, 
Central China Normal University, Wuhan 430079, China) 


Abstract: [Objective] This paper identifies the fine-grained preferences of online bookstore users, aiming to optimize 
the personalized book recommendation service. [Methods] First we conducted sentiment analysis of the book features 
through readers” comments, which indicated their preferences. Then, we calculated the books’ sentiment Scores based 
on the readers’ comments. Finally, the user preferences matrix and the sentiment scores matrix were matched to 
personalize the book recommendation. [Results] We retrieved the needed data from Amazon’s book comments, and 
then conducted an experiment to compare the results of our new method with those of the traditional collaborative 
filtering methods. We found that the proposed method improved the precision, recall and coverage by 0.030, 0.097, 
0.2812. [Limitations] We did not consider the impacts of time on user’s preferences, and the feature types might not be 
comprehensive due to the limited number and quality of Amazon’s book comments. [Conclusions] The proposed 
method improves the performance of personalized book recommendation service. 


Keywords: Personalized Book Recommendation Sentiment Matching Commodity Feature User Preference 


瑞士 国家 科学 基金 会 要 求 申 请 项 目 必须 提供 数据 管理 计划 


瑞士 国家 科学 基金 会 新 增 一 项 项 目 经 费 申 请 要 求 : 从 2017 年 10 月 开始 , 研究 人 员 必 须 提交 一 份 数据 管理 计划 ， 这 份 数 
据 管理 计划 将 作为 其 完整 研究 计划 的 一 部 分 。 

数据 管理 计划 是 迈 向 开放 科研 数据 的 重要 一 步 。 世 界 范 围 内 ,已 经 有 一 些 倡 议 力 图 使 科学 数据 ,尤其 是 科研 数据 开放 可 
用 。 瑞 士 国家 科学 基金 会 认同 这 些 倡 议 的 基本 原则 。 

数据 管理 计划 将 鼓励 研究 人 员 在 项 目 开 始 前 便 考 虑 数据 的 生命 周期 。 如 果 没 有 限制 数据 公开 的 相关 法 律 、 道 德 或 版 权 ， 
他 们 必须 在 非 商用 的 数字 知识 库 中 存储 数据 及 元 数据 , 存储 的 格式 是 任何 人 都 能 找到 、 获 取 和 再 利用 的 。 瑞 士 国家 科学 基金 
会 将 支付 数据 上 传 的 费用 。 

目前 , 瑞士 国家 科学 基金 会 正在 敲定 数据 管理 计划 的 指导 方针 。 指导 方针 应 保证 每 个 科学 学 科 都 能 够 达到 数据 管理 计划 
的 要 求 。 一 旦 方针 出 台 , 瑞士 国家 科学 基金 会 网 站 将 会 传达 和 发 布 。 已 在 2017 年 4 月 提交 审批 的 项 目 将 不 必 提 供 数据 管理 
计划 。 

开放 数据 能 极 大 地 提升 科学 研究 的 影响 力 、 透 明度 和 再 现 性 。 


(编译 自 : http://www.snsf.ch/en/researchinFocus/newsroom/Pages/new-170306-towardsopen-research-data.asp) 
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